05. 评估数据

评估数据

在 Jupyter notebook 中使用 Pandas,探索 all_alpha_08.csv all_alpha_18.csv ,以回答 notebook 下面有关这些数据集特征的练习问题:

  • 每个数据集中的样本数
  • 每个数据集中的列数
  • 每个数据集中重复的行数
  • 列的数据类型
  • 具有缺失值的特征
  • 每个数据集中特征的非空唯一值的数量
  • 这些唯一值都是什么,以及每个的计数

Workspace

This section contains either a workspace (it can be a Jupyter Notebook workspace or an online code editor work space, etc.) and it cannot be automatically downloaded to be generated here. Please access the classroom with your account and manually download the workspace to your local machine. Note that for some courses, Udacity upload the workspace files onto https://github.com/udacity , so you may be able to download them there.

Workspace Information:

  • Default file path:
  • Workspace type: jupyter
  • Opened files (when workspace is loaded): n/a

QUIZ QUESTION: :

在 2008 年的数据集中查找以下每一项的正确计数

ANSWER CHOICES:



特征

计数

18

4

26

25

1

1611

2404

199

3889

SOLUTION:

特征

计数

18

25

2404

199

QUIZ QUESTION: :

在 2018 年的数据集中查找以下每一项的正确计数

ANSWER CHOICES:



特征

计数

1611

2

2404

32

15

18

0

SOLUTION:

特征

计数

1611

2

18

0

QUIZ QUESTION: :

将每个特征和数据类型相匹配(其中一些可能不理想)

ANSWER CHOICES:



特征

数据类型

布尔型变量

字符串

布尔型变量

字符串

整型

浮点型

浮点型

整型

字符串

SOLUTION:

特征

数据类型

字符串

字符串

字符串

字符串

字符串

字符串

整型

浮点型

浮点型

整型

字符串

字符串

字符串

QUIZ QUESTION: :

匹配以下每个特征的非空唯一值的数量:

ANSWER CHOICES:



特征

唯一值

3

2

1

5

42

14

3

18

2

SOLUTION:

特征

唯一值

3

3

2

2

14

3

3

2

2

2008 年和 2018 年数据集中的 Cyl 列有何不同?

SOLUTION:
  • 数据类型
  • 格式
  • 唯一值的数量

QUIZ QUESTION: :

这些燃料类型中的每一个存在于哪里?

ANSWER CHOICES:



燃料类型

数据集

两者都有

2018

两者都不

两者都有

2008

两者都有

2008

2018

SOLUTION:

燃料类型

数据集

两者都有

两者都有

2018

2018

两者都有

两者都有

2008

两者都有

两者都有

2008

2018

2018